Une startup affirme avoir une IA plus rapide et moins chère : promesse crédible ou bluff ?

Le mois dernier, Subquadratic a levé 26,8 millions d’euros et lancé SubQ, un modèle de langage pensé pour réduire drastiquement le coût de calcul des IA à long contexte. Des tests indépendants publiés mi-juin par le cabinet Appen valident une partie des gains. Les douze millions de tokens annoncés au lancement n’ont en revanche pas été mesurés à ce jour.

Appen n'a toutefois testé que jusqu'à deux millions de tokens. Au-delà, et surtout pour les douze millions annoncés au lancement, rien n'a été publié ni mesuré à ce stade - ©Summit Art Creations / Shuttertstock

Doublez le texte soumis à ChatGPT ou à Claude, et le modèle effectue quatre fois plus de calculs. Ce rapport quadratique, inhérent à l’architecture transformer publiée par Google en 2017, est le principal frein au déploiement des IA à grande échelle. Subquadratic, une startup de Miami fondée par Justin Dangel et Alex Whedon, y a opposé une architecture dite à attention sparse : le modèle ne traite que les associations de mots jugées pertinentes, et non la totalité des paires possibles, ce qui maintient le coût de calcul proportionnel à la longueur du texte. L’équipe compte trente-cinq personnes, dont onze docteurs formés chez Meta, Google, Oxford et Cambridge.

« Soit la plus grande percée depuis le transformer, soit le Theranos de l'IA », a écrit sur X l’ingénieur IA Dan McAteer. Theranos est la startup médicale américaine dont la fondatrice Elizabeth Holmes a été condamnée pour fraude après avoir fabriqué de faux résultats cliniques. Le scepticisme de Dan McAteer est largement partagé dans la communauté des développeurs : de telles promesses, sans preuve indépendante immédiate, ressemblent à plusieurs lancements récents restés sans suite.

Appen mesure un gain de vitesse de 56 fois sur un million de tokens

Appen, un cabinet spécialisé dans l’audit de modèles IA, a publié deux rapports récents. Dans le premier, les auditeurs ont mesuré la vitesse du noyau d’attention de SubQ à un million de tokens, soit environ 750 000 mots : 56 fois plus rapide que FlashAttention-2, la méthode dense de référence dans l’industrie. Dans le second, Appen a soumis SubQ 1.1 Small Preview à plusieurs exercices standardisés. Sur NIAH, un test dans lequel le modèle doit retrouver une information précise enfouie dans un texte très long, SubQ 1.1 Small a affiché 100 % de réussite jusqu’à deux millions de tokens, puis 98 % à douze millions et enfin 89,7 % au score pass@4 sur un exercice de génération de code tiré de compétitions réelles.

Les auditeurs ont travaillé sans accès aux poids du modèle ni aux données d’entraînement, uniquement via l’API. Pour les mesures de vitesse, ils ont obtenu le code source du noyau et reproduit les tests côte à côte. Appen n’a toutefois testé que jusqu'à deux millions de tokens. Au-delà, et surtout pour les douze millions annoncés au lancement, rien n'a été publié ni mesuré à ce stade. D’ailleurs, selon Will Depue, chercheur indépendant et ancien d’OpenAI, « Les preuves publiques ne justifient pas encore l'affirmation selon laquelle Subquadratic a résolu le problème de l'attention quadratique ».

Doublez le texte soumis à ChatGPT ou à Claude, et le modèle effectue quatre fois plus de calculs. Ce rapport quadratique, inhérent à l'architecture transformer publiée par Google en 2017, est le principal frein au déploiement des IA à grande échelle - ©Phalexaviles / Shutterstock

Subquadratic a greffé son architecture sparse sur un modèle open-weight existant

Dans son rapport technique, Subquadratic précise que l’équipe a pris un modèle open-weight existant, remplacé son mécanisme d’attention par l’architecture SSA, puis prolongé l’entraînement sur environ mille milliards de tokens supplémentaires, principalement des livres, des documents et des dépôts de code. Selon Alex Whedon, l'équipe utilisait « les poids de modèles open source comme point de départ, en fonction de notre financement et de notre maturité en tant qu'entreprise ».

Au lancement, Justin Dangel avait pourtant affirmé que l'équipe avait reconstruit l’attention depuis les premiers principes. Pratique courante dans l’industrie, mais en décalage net avec ce discours inaugural.

Magic.dev, une startup spécialisée dans les modèles à très long contexte, avait levé environ 430 millions d’euros en 2024 sur des annonces comparables, sans audit indépendant ni publication de résultats à l’échelle revendiquée.

Enfin, et puisqu’il est question d’argent, le test RULER 128K, qui mesure la capacité de récupération en long contexte, Anthropic facture environ 2 380 euros et Subquadratic évalue la même requête à 7,30 euros.

Source : TheNextWeb

À découvrir

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2026

Comparatifs services